视频tokenizer

ICCV2025—REGEN: 首个基于DiT的视频Tokenizer

在现有latent diffusion model的框架下，视频tokenizer的latent space对于视频生成的训练和推理速度有着决定性的作用。目前主流的视频tokenizer，比如MAGVIT-v2，采用基于3D-VAE的架构，实现在空间和时间维度